Paper Sparks | IDEA研究院EMNLP 2023入选论文解读
全球自然语言处理领域的顶级会议EMNLP 2023于12月6日-12月10日在新加坡举行。会议共收到4909篇投稿,创下新高。主会录用论文1047篇,整体接收率为 21.3%。粤港澳大湾区数字经济研究院(简称“IDEA研究院”)有三篇论文被收录。
EMNLP的全称是Conference on Empirical Methods in Natural Language Processing,由国际计算语言学会ACL组织每年举办一次,为自然语言处理领域最具影响力的国际会议之一。
论文主题一览
· CCEval:首个以中文为中心的多语言机器翻译评测数据集,包含多个低资源语种。
· Orca:首个中文对话式机器阅读理解数据集,用于评估各模型在理解信息和生成自然对话方面的能力。
· 终身时序知识图谱(TKG)推理:以强化学习为核心的全新终身TKG推理框架,提出了一种基于GNN的边缘感知消息传递模块。
近年来,随着全球商务发展和跨文化交流的需求日益增加,以中文为中心的多语言机器翻译(MMT,Multilingual Machine Translation)变得越来越重要。然而,限制这一领域进步的一个重要因素是缺乏权威且公正客观的高质量评估基准。
为了填补这一空白,本工作提出并开源了CCEval,首个以中文为中心、多领域、多维度的多语言机器翻译基准评测数据集。
CCEval评测集包含精细挑选和处理的2500条中文句子样本,与其他多语言机器翻译评估基准相比,涵盖了更多样的领域和语言特征。
该评测集中的每个语种与中文形成的语言对均覆盖新闻、政治、科技、医疗、旅游和日常六大领域,以满足不同垂直领域和应用场景的需求。
CCEval数据集的标注和质量控制流程
上图展示了CCEval数据集的构建流程。在中文源文本的选择阶段,句子长度、词频和语法复杂性等特征的分布都经过了精心设计,以确保数据集包含多维度的语言特征。
在翻译与校订阶段,为保证译文质量,原文句子在严格的标注和质量控制流程下,经过专业翻译人员和高水平语言专家翻译。最终的翻译质量在国际通用的翻译多维质量标准(MQM Quality standard)下达到了业界高水平,准确率超过90%。
数据集包含11种不同资源水平的“一带一路”语言,包括蒙古语和老挝语等低资源语种。未来将定期增加句对数目,并逐步扩充至15个语种。
本项工作由鹏城实验室和IDEA研究院共同完成。
论文地址:https://aclanthology.org/2023.findings-emnlp.682.pdf
数据集地址:https://bright.pcl.ac.cn/en/offlineTasks
目前,对话问答是大模型应用中的主要使用场景之一,对话式机器阅读理解(CMRC)任务随之成为研究热点。然而,现有的CMRC基准测试难以有效考核模型能力。其原因在于,在真实场景中,一次完整对话往往包含多轮问答,涉及动态变化的知识,但现有数据集中只将一次对话与一个静态的文本段落(背景信息)相关联。
为此,研究团队提出首个中文对话式阅读理解数据集Orca,包含831个由社交媒体热门话题驱动的对话(共4742个问答回合)。针对对话中的每个问答回合,Orca都提供一段相应的背景信息,从而更全面地评估模型表现。
简化的Orca对话。Q、R 和 P 分别代表查询(query)、回应(response)和段落(passage)
上图展示了Orca数据集中的一次对话(问答回合略有删减)。所有问答轮次结束后,可以使用一系列自动评估指标(BLEU、Distinct、ROUGE-L、EM等)或人工评估来衡量模型的生成结果。
值得一提的是,数据集中的回答并非简单的选项(如“A、B、C”等),或从文本中提取的短语,而是由人工标注的自然语言答案,进而考验模型的自然语言生成能力。
Orca提供零样本(zero-shot)和少样本(few-shot)设置,帮助开发者评估模型在面对不同的新领域时的泛化能力。
Orca提出了两种评估模型的框架,一种是使用大语言模型进行上下文学习(in-context learning),另一种是通过微调(fine-tuning)较小的模型来提高模型在Orca任务上的性能。
研究人员针对上述两种评估框架,在Orca数据集上测试了ChatGPT、GPT-3、BART和T5模型的表现。通过在不同的指标(如BLEU-1、BLEU-2、ROUGE-L等)上的得分,对比模型生成的回答在词汇、语义和多样性方面的表现,可以为不同大小的模型的样本量选择提供指导。例如,研究人员发现,T5模型使用10 shot对话样本微调后,上下文学习效果可比肩5 shot的ChatGPT。
本项工作由小冰公司、香港科技大学(广州)、IDEA研究院和中国科学院信息工程研究所共同完成。
论文地址:https://arxiv.org/abs/2302.13619
代码地址:https://github.com/nuochenpku/Orca
众所周知,传统的静态知识图谱以三元组(实体,关系,实体)的形式存储事实。时序知识图谱(Temporal Knowledge Graph,TKG)是知识图谱的另一种典型形式,将上述三元组扩展为四元组(实体,关系,实体,时间),以表示事实发生的时间点。
现实世界是持续变化的,TKG中的新实体和新事实会随时间推移不断涌现,因此,TKG始终处于不完整状态。当前主要的TKG推理方法包括可传递与归纳式,分别存在一些缺陷。前者有 “封闭世界假设”,每次更新知识需重新训练知识库;后者虽然能够动态更新,但多将新实体视为同时出现,过度简化。
本工作聚焦另一种推理方式,终身TKG推理(lifelong TKG reasoning),并提出了一种全新的终身TKG推理框架,在不完整TKG上进行链接预测(link prediction)任务。这一任务要求模型能够持续地学习新出现的实体和事实,并更新现有知识,从而进一步对下个时间段可能发生的事实进行预测。
此图是一个时序知识图谱在不同时间点的三个快照,体现TKG随着时间的演变。从左到右,随着时间的推移,知识图谱中不断出现新实体(蓝色节点)和新事实(边),反映的是现实世界中事件的动态变化。
本研究根据终身TKG推理问题,设计了一个基于时间路径的强化学习(Reinforcement Learning, RL)框架,在RL的行动空间中加入了时间位移(temporal displacement)的概念。时间位移是指从一个时间戳到另一个时间戳的时间差,这个时间差被用来捕捉与时间相关的动态变化,以便模型能够基于当前的状态和时间信息来预测未来可能发生的状态和事件。
每个时间戳代表一个独立的图谱快照,在新实体和事实出现后,模型会基于已有的知识学习新知识,并将所有图谱上的新旧知识一起更新。
这种时间位移还能够基于时序规则进行奖励塑造,从而引导模型的训练过程,使其能在TKG不断变化的情况下,依然能有效地推理和学习。
在RL的框架下,本研究设计了一个边缘感知的消息传递模块,该模块通过GNN的双向通信机制在边和节点之间传递信息,能更新所有实体和边的嵌入,让模型在新实体和事实出现时保持高性能。
鉴于该终身TKG推理框架为全新提出,为了更准确地评估TKG推理的有效性,本研究构建了三个新的基准测试。实验结果显示,该框架在所有适应良好的基线上均展现出出色的性能,并且随着TKG快照的增长,框架的性能呈现出逐步提升的趋势。这体现了此框架在终身TKG推理任务中展现出了持续学习和适应新知识的能力。
本项工作由国防科技大学并行与分布处理国家重点实验室、IDEA研究院和国防科技大学共同完成。
论文地址:https://aclanthology.org/2023.findings-emnlp.448/